Cervelli menti algoritmi by Tommaso Poggio & Marco Magrini

Cervelli menti algoritmi by Tommaso Poggio & Marco Magrini

autore:Tommaso Poggio & Marco Magrini [Poggio, Tommaso & Magrini, Marco]
La lingua: ita
Format: epub
editore: SPERLING & KUPFER
pubblicato: 2023-09-27T12:00:00+00:00


L’epopea dei modelli di linguaggio

Nel 2017, Google pubblica il famoso articolo sui transformer. Nel 2019, OpenAI presenta GPT-2, da molti considerato come il primo language model sufficientemente large, con un miliardo e mezzo di parametri, ovvero di «pesi» calcolati durante la fase di training. Nel 2020, Google annuncia il suo LLM chiamato LaMDA, poi sviluppato in tre modelli, il più grande dei quali ha 137 miliardi di parametri. Nel 2022, oltre ai primi modelli a diffusione come DALL-E, Stable Diffusion e il popolare Midjourney, compare GPT-3.5 con i suoi 175 miliardi di parametri. Il numero dei parametri della versione GPT-4 non è stato rivelato, ma qualcuno dice che si aggiri sui 1.000 miliardi.

L’avvento delle tecnologie generative ha repentinamente cambiato lo scenario della AI, che si è in qualche modo allontanata dal modello neurobiologico del cervello umano: è diminuita l’importanza dell’algoritmo ed è aumentata quella dei dati. Un uomo impiegherebbe migliaia di anni per leggere tutto quel che GPT ha digerito.

Come già detto, «GPT» sta per Generative Pre-trained Transformer. Il transformer è il modello di rete neuronale. È generativo perché il suo mestiere è quello di predire la parola da usare sulla base delle parole che la precedono. Ed è pre-trained perché viene allenato ad autoprodurre un microcosmo di relazioni fra le parole, dandogli in pasto la massima quantità di dati possibile, che lui masticherà per giorni e settimane con i denti di centinaia di GPU e TPU, fino a digerire una bella fetta delle conoscenze umane.

Questo microcosmo di parole è effettivamente rappresentato nello spazio geometrico sotto forma di vettori, abitualmente usati in matematica per quantità che non possono essere espresse con un solo numero. Se prendo le parole «zebra», «pipistrello» e «serpente», tutte e tre appartengono alla categoria «animale», due soltanto a «mammifero» e una soltanto a «sa volare». Queste relazioni vengono codificate nei vettori sotto forma di punti nello spazio, dove più le parole sono associate più sono vicine fra loro. Ora, noi siamo abituati a concepire un punto nello spazio bidimensionale degli assi cartesiani o nello spazio tridimensionale nel quale viviamo. Qui, invece, per contenere le molteplici relazioni fra le parole nei loro molteplici significati è necessario usare uno spazio multidimensionale, impossibile da visualizzare graficamente.

OpenAI non ha rivelato quali sorgenti abbia utilizzato per il training di GPT-3. Si dà per scontato che abbia usato i migliori dataset di puro testo disponibili. Si comincia con CommonCrawl, che dal 2018 scannerizza e conserva il contenuto di pagine web, incluse quelle che nel frattempo sono state cancellate. Poi c’è WebText, un corpus di dati ricavati dalla stessa OpenAI collezionando 45 milioni dei link più votati su Reddit, un popolare sito di discussione e di aggregazione di notizie. Book1 e Book2 sono due dataset che contengono un numero enorme di libri disponibili online e non soggetti a copyright. Infine, c’è ovviamente Wikipedia, la grande enciclopedia multilingue scritta e verificata gratuitamente dagli utenti. Ma è verosimile che ci sia molto, molto di più.

Prendiamo il caso di Google Books. Nel 2004 Google si lancia



scaricare



Disconoscimento:
Questo sito non memorizza alcun file sul suo server. Abbiamo solo indice e link                                                  contenuto fornito da altri siti. Contatta i fornitori di contenuti per rimuovere eventuali contenuti di copyright e inviaci un'email. Cancelleremo immediatamente i collegamenti o il contenuto pertinenti.